7 Bayesian Treatment for Regularization

1 Bayesian Regularization

Recap the Bayesian regression in the model: $y = X β + ε, ε_{t} \overset{i . i . d}{\sim} N (0, σ^{2}), β_{j} \overset{i . i . d}{\sim} Unif (- C, C)$ for a large $C$ . We have showed in here that $\begin{matrix} (4.1) & β | data, σ \sim N ((X^{T} X)^{- 1} X^{T} y, σ^{2} (X^{T} X)^{- 1}) \end{matrix}$ when $C \to \infty$ .

A different prior is $β_{j} \overset{i . i . d}{\sim} N (0, C)$ , then $\begin{matrix} (4.2) & β | data, σ \sim N ({(\frac{X^{T} X}{σ^{2}} + \frac{I}{C})}^{- 1} \frac{X^{T} y}{σ^{2}}, {(\frac{X^{T} X}{σ^{2}} + \frac{I}{C})}^{- 1}) . \end{matrix}$
When $C \to \infty$ , (4.2) is (4.1).

Now consider prior $β_{0}, β_{1} \overset{i . i . d}{\sim} N (0, C), β_{2}, \dots, β_{n - 1} \overset{i . i . d}{\sim} N (0, τ^{2})$ for a small $τ$ , i.e. $β \sim N (0, Q), Q = diag (C, C, τ^{2}, \dots, τ^{2})$ , and $\begin{matrix} (4.3) & β | data, σ \sim N ({(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1} \frac{X^{T} y}{σ^{2}}, {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1}) . \end{matrix}$

(4.2) and (4.3) will be proved later.

The posterior mean is then $\begin{matrix} (4.4) & {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1} \frac{X^{T} y}{σ^{2}} = (X^{T} X + σ^{2} Q^{- 1})^{- 1} X^{T} y . \end{matrix}$ (Note this is closely related to (2.1)) Note that $Q^{- 1} = diag {C^{- 1}, C^{- 1}, τ^{- 2}, \dots, τ^{- 2}}$ . When $C$ is large, $Q^{- 1} \approx \frac{1}{τ^{2}} J$ , so (4.4) becomes ${(X^{T} X + \frac{σ^{2}}{τ^{2}} J)}^{- 1} X^{T} y$ , which matches 2.1 if $λ = \frac{σ^{2}}{τ^{2}}$ .

2 Bayesian Approach for Dealing with Unknown $τ$ and $σ$

Assume $\log τ, \log σ \overset{i . i . d}{\sim} Unif (- C, C)$ , $β | τ, σ \sim N (0, Q)$ . $Q$ is same as above. Then prior joint density is $\begin{aligned} f_{β, τ, σ} (β, τ, σ) & = f_{τ} (τ) f_{σ} (σ) f_{β | τ} (β) \\ = \frac{I {e^{- C} < τ, σ < e^{C}}}{4 C^{2} τ σ} {(\frac{1}{\sqrt{2 π}})}^{n} \frac{1}{\sqrt{\det Q}} \exp (- \frac{1}{2} β^{T} Q^{- 1} β) \\ \propto \frac{1}{τ σ} \frac{1}{\sqrt{\det (Q)}} \exp (- \frac{1}{2} β^{T} Q^{- 1} β) . \end{aligned}$
(Indicator has also been ignored because $C$ is large). The likelihood is ${(\frac{1}{\sqrt{2 π}})}^{n} σ^{- n} \exp (- \frac{1}{2 σ^{2}} | | y - X β | |^{2}),$ then the posterior is $f_{β, τ, σ | data} (β, τ, σ) \propto \frac{σ^{- n - 1} τ^{- 1}}{\sqrt{\det (Q)}} \exp (- \frac{1}{2} (\frac{1}{σ^{2}} | | y - X β | |^{2} + β^{T} Q^{- 1} β)) .$
Convert the power to quadratic: $\begin{aligned} \frac{1}{σ^{2}} | | y - X β | |^{2} + β^{T} Q^{- 1} β \\ = & \frac{y^{T} y}{σ^{2}} - \frac{2 β^{T} X^{T} y}{σ^{2}} + β^{T} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) β \\ = & (β - μ)^{T} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) (β - μ) + \frac{y^{T} y}{σ^{2}} - μ^{T} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) μ \\ = & (β - μ)^{T} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) (β - μ) + \frac{y^{T} y}{σ^{2}} - \frac{y^{T} X}{σ^{2}} {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1} \frac{X^{T} y}{σ^{2}}, \end{aligned}$ where $μ = {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1} \frac{X^{T} y}{σ^{2}} .$ Plug into posterior: $\begin{aligned} f_{β, τ, σ | data} (β, τ, σ) \propto & \frac{σ^{- n - 1} τ^{- 1}}{\sqrt{\det (Q)}} \exp (- \frac{1}{2} (β - μ)^{T} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) (β - μ)) \\ \cdot \exp (- \frac{y^{T} y}{2 σ^{2}}) \exp (\frac{y^{T} X}{2 σ^{2}} {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1} \frac{X^{T} y}{σ^{2}}) . \end{aligned}$
The dependence on $β$ is simple through the quadratic which implies $β | data, σ, τ \sim N (μ, {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1}) .$ This proves (4.2) and (4.3). Also $f_{τ, σ | data} (τ, σ) \propto \frac{σ^{- n - 1} τ^{- 1}}{\sqrt{\det Q}} \sqrt{det {(\frac{X^{T} X}{σ^{2}} + Q^{- 1})}^{- 1}} \exp (- \frac{y^{T} y}{2 σ^{2}}) \exp (\frac{y^{T} X}{2 σ^{2}} (\frac{X^{T} X}{σ^{2}} + Q^{- 1}) \frac{X^{T} y}{σ^{2}}) .$

3 Comments on Bayesian Regularization

In practice, $f_{τ, σ | data}$ tends to prefer $τ$ neither too small nor too large. Because $f_{τ, σ | data} (τ, σ) \propto f_{data | τ, σ} (τ, σ) f_{τ, σ} (τ, σ),$ and $f_{τ, σ} (τ, σ)$ is quite flat. (Note that there is a big difference between $f_{data | β, σ} (data)$ and $f_{data | τ, σ} (data)$ )
Maximizing $f_{data | β, σ} (data)$ leads to the unregularized LS estimate leading to overfitting. On the other hand, maximizing $f_{data | τ, σ} (data)$ leads to a fairly small estimate of $\hat{τ}$ leading to a smooth trend function. This can be understood by noticing $f_{data | τ, σ} (data) = \int f_{data | β, σ} (data) f_{β | τ} (β) d β .$ When $τ$ is large, $f_{β | τ} (β)$ will be small simply because the normal density with $τ^{2}$ will be flat for large $τ$ . When $τ$ is too small, $f_{β | τ} (β)$ will be significant only for very smooth $β$ but these $β$ will have poor values for $f_{data | β, σ} (data)$ .

Model $y = β_{0} + β_{1} x$ . But how to estimate $β_{0}, β_{1}$ ?
Well, given a guess, I do know how "bad" it is.

Denote our footprint lengths as $x_{1}, \dots, x_{n}$ , and heights as $y_{1}, \dots, y_{n}$ .
If $β_{0}, β_{1}$ are known, we predict heights as ${\hat{y}}_{1}, \dots, {\hat{y}}_{n}$ , with ${\hat{y}}_{i} = β_{0} + β_{1} x_{i}$ .

Define Loss Function: $L (β_{0}, β_{1}) = \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} = \sum_{i = 1}^{n} [y_{i} - (β_{0} + β_{1} x_{i})]^{2} .$

Our ultimate goal is to minimize loss function. $\begin{aligned} (1) & {\begin{aligned} \frac{\partial L}{\partial β_{0}} (β_{0}, β_{1}) = 0, \\ \frac{\partial L}{\partial β_{1}} (β_{0}, β_{1}) = 0. \end{aligned} \end{aligned}$

Denote $\overset{―}{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}, \overset{―}{y} = \frac{1}{n} \sum_{i = 1}^{n} y_{i}, \overset{―}{x y} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}, \overset{―}{x^{2}} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}$ , then the solution is $\begin{matrix} (2) & β_{1} = \frac{\overset{―}{x} \cdot \overset{―}{y} - \overset{―}{x y}}{(\overset{―}{x})^{2} - \overset{―}{x^{2}}}, β_{0} = \overset{―}{y} - \overset{―}{x} β_{1} . \end{matrix}$